王燕玲:专有名词识别和自动标识技术在司法大数据中的适用
The following article is from 政法论坛 Author 王燕玲
(题字:南开大学法学院校友安尧)
华南师范大学法学院副教授,华南师范大学人工智能法律应用研究中心主任,
“小包公”创始人。
本文发表于《政法论坛》2022年第5期。来自公众号“政法论坛”。
原题为:“论命名实体识别技术在司法大数据中的适用”。这里据文中“命名实体识别”技术的含义进行了通俗化替换,以利于推广。
法治均等化与可及性建设,需要推动我国社会公平正义的司法体制综合配套改革。在法治研究与人工智能深度融合的背景下,作为专有名词识别与自动标识的命名实体识别技术(NER),在适用于法律人工智能的过程中具有积极价值。
目录
引言一、命名实体识别在法律人工智能中之应用基础二、法律规范文本中命名实体识别之实现路径三、司法文书文本中命名实体识别的实现路径结语
引 言
当前智慧司法的建设仍存在诸多问题,如“重建设,轻应用”的意识、深度学习等人工智能技术在功能开发中应用程度不高、司法大数据资源的效用远未发挥充分等。然而,破除“重建设,轻应用”的迷障,实现法律人工智能的均等化与可及性,是智慧司法建设过程中应积极面对的。党的十九届四中全会提出了“均等化、可及性”作为推进国家治理体系和治理能力现代化的任务之一,体现了党对于国家建设、政府建设的价值追求。所谓法治的均等化与可及性,是指群众能获得大致均等的法律服务与法治产品,其核心是机会均等、全面普惠。法治均等化、可及性追求的价值取向是公平正义,旨在通过提供优质的法律服务与法治产品,弥补城乡、区域、不同人群享受法律服务资源上的差距,共同享受法治中国的建设成果。对此,需要积极探索相关人工智能技术如何应用于智慧司法建设的进程中,有效地将人工智能技术与司法大数据资源深度融合,产出高效、可靠的智能法律应用产品。
“大数据与人工智能不仅成为司法信息化、智能化建设中的技术支撑,而且还被赋予提升司法审判体系与审判能力现代化建设的技术力量。”在司法大数据研究领域,理论探索更倾向于宏观命题和一般性原理,技术实现更倾向事务管理性模式这一路径。对“人工智能+法律”的研究大抵仅能将人工智能作为一个概念、现象或者社会发展的前景,再进行研究。
例如,在中国知网以“人工智能”“法律”为关键词进行检索,可以发现,其研究范围大致为人工智能之法理、法律人工智能之伦理问题与中国经验及其优化路径、人工智能之算法风险及其应对,等等。如何将法律与技术进行深度融合,打造出具有法律专家之逻辑推理和决策能力的智能化应用,是法治均等化与可及性建设的现实需求。
人工智能作为计算机科学的一个分支,其包含了机器学习、语言识别、图像识别、自然语言处理和专家系统等技术。其中,自然语言处理(Natural Language Processing,NLP)作为上述应用的支撑技术之一,又以命名实体识别(Named Entity Recognition,NER)为关键性基础任务。命名实体识别指的是,识别出专有名词。这不仅是深度学习的关键性技术,也是应用于司法大数据智能分析的重要一环。
当前,对于人工智能中的命名实体识别技术如何应用于法律领域,我国的研究主要集中于以下几个方面:一是构建法律文书的命名实体识别技术;二是对裁判文书中的相应事件设置自动化抽取方法。然而,上述研究主要是以法律文书为样例,利用相应技术手段构建识别模型,重点在于如何提升命名实体识别的准确度。就命名实体识别应用于司法大数据领域,当前的文献着墨较少。
鉴于命名实体识别技术是应用于司法大数据领域的重要技术,且有利于提升法律文本的智能识别效率,提高类案智能推送、法条关联推送的精准度,增强案例大数据实证分析的准确性。
为此,本文首先阐明命名实体识别技术之基本原理,对其应用于司法大数据领域的可能性与必要性作进一步分析,并以法律规范文本和司法案例文本为主要分析对象,阐明命名实体识别技术在法律领域的实现路径,以期推动法律人工智能的均等化与可及性。
一、命名实体识别在法律人工智能中之应用基础
突破法律人工智能研究中“重理论研讨,轻实现路径”的瓶颈,应首先说明命名实体识别之原理,阐释其应用于法律人工智能之可能,为命名实体识别技术在法律规范文本与司法裁判文书中的实现路径奠定基础。
(一)命名实体识别技术之原理
命名实体识别技术是关系抽取、文本摘要和机器翻译等自然语言处理中的一项重要任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称。命名实体识别中的核心要素是“实体”,实体是指具有可描述意义的单词或者短语,一般可以是人名、地名等。在法律领域则表现为专有名词,如“死刑”“有期徒刑”等。
在上世纪90年代,国外有学者在第7届IEEE人工智能应用会议上首次发表“抽取和识别公司名称”的文章,采用启发式算法和手工编写规则的方法描述了抽取和识别公司名称的系统。但“命名实体识别”这个专业术语首次在MUC-6(Message Understanding Conferences)会议上出现,此次会议主要讨论了信息抽取以及命名实体识别任务。此后,命名实体识别对类别的划分逐渐细致化,由粗粒度的人名、地名和组织机构名,向国家、城市、政治家、艺术家等细粒度实体类别转变。
中国研究命名实体识别技术虽然起步相对较晚,但其研究主要集中于中文命名实体之中,例如,地名、人名、组织机构名等。随着命名实体识别技术的深度发展,其被广泛应用于多个领域。
在法律领域的应用主要包括,利用上下文针对法律文本、法律数据集的命名实体识别的研究;细粒度命名实体识别在法律文本中的应用;设置裁判文书中的自动化抽取方法等。这对智能化分析法律规范文本、裁判文书等文本无疑具有正向效用。
命名实体识别的原理即是识别“实体”的边界与类别,降低人工标注的差误。其主要功能和作用是将预先定义好的“实体”类型识别出来,它的基本步骤分为“词实体标注—单个实体识别—复合实体识别”,不同的实体有不同的标注方法。这为法律文本中的人名、组织名等实体的识别创造了底层技术逻辑,大量的实体类别通过技术手段识别,大大降低了人工标注所带来的偏差。
例如,XX律师作为代理人参加某机动车交通事故纠纷案。其中,原告、被告、委托代理人等即为命名实体,这可通过要素挖掘、语义检索、推理计算等识别出相应法律“实体”。这在法律人工智能应用中对于证据的分析、事件分析、时间分析、法律行为分析等要素的智能化识别具有重要的技术价值。
近年来,通过连续的实值矢量表示和通过非线性处理的语义合成的支持,深度学习已被用于命名实体系统中,从而产生了最先进的性能。基于深度学习的命名实体识别技术可以设计端到端的结构,使设计好的模型能够从数据中学习到更为复杂的“实体”,从而避免人工的重复标注。
命名实体识别技术通过标注、识别法律“实体”,以可视化的形式展现司法演变轨迹、经验逻辑等,凸显出信息技术的科技理性。识别出的法律“实体”数据具有客观性、真实性,呈现一种司法数据与人工智能技术紧密结合的现状,反馈并提高了人工智能时代的司法理性。
例如,利用大数据技术精准描述裁判文书所体现的司法理性,需要着力解决刑罚数值化表示,以实证确定量刑起点、实证确定量刑因素的作用力大小等反馈司法理性的因子,以数据形式完善对司法理性的精准描述。以“数值化”的形式表示刑罚量,首要的是识别出已有裁判文书中的刑罚量“实体”。
这些实体所反馈的司法理性,是法治社会公平、正义的重要屏障。而公平、正义作为司法公正的实质内涵,也要融入法律人工智能的技术理性之中,体现公正,避免技术的固有缺陷所带来的歧视性问题。
(二)命名实体识别于司法大数据应用之积极价值
“智能系统的论证说理水平直接影响其决定的可接受性。”智能系统正确说理的前提是要识别法律文本中的“实体”,这恰需要命名实体识别技术在司法大数据领域发挥作用。
就命名实体识别技术应用于司法大数据中的必要性而言,在利用技术手段推动中国法学本土化发展之余,也可作为法治均等化与可及性的道路之一。法律人工智能是通过技术手段推动司法改革的新范式,既能提升司法改革质效,又能推进司法公正,为司法为民和公正司法提供智能化解决方案。其中,命名实体识别技术的司法应用成为当前法学研究之重点内容。
一方面,法学研究的本土化需要结合大量的司法裁判文书展开实证研究。在数以亿计裁判文书中所展现的实证问题,恰是中国法律实践所需要解决的。其解决程度既是司法回应立法的表达,也是民众对良法善治的企盼。因而,法学研究的本土化,首要的是解决中国法律实践之问题,这需要结合“类案类判”的原则,深度清洗、分析司法裁判文书等法律文本,融入法教义学基本要义,型塑符合中国国情的学说、理论与法学科学概念。
另一方面,要从大量的裁判文书中找到司法实践之问题,并非易事。而命名实体识别很大程度上可以解决标注不准、识别不清、效率低下等问题。从法学实证研究范式的角度来说,技术手段的成熟运用,对摆脱当前实证研究中的描述性统计分析、相关性分析也有益处。“法学实证研究范式的科学化需要回归实证研究的初心,即检验和证伪竞争性理论假设,实现破坏性理论创新。”这种检验与证伪以数据准确性为依归,以人工标注获得的“观测性”数据存在较大的偏误风险,难以实现上述目标。相反,以命名实体识别为底层技术逻辑所构建的模型,至少可以提升数据的准确性,为理论检验奠定基础。
通过人工阅读、标注大量的文书文本耗时久,且可能出现大量统计错误。而基于深度学习的命名实体识别能够提供精准的深度分析,让法律服务更加便捷和可行。在法律服务水平不断提升的背景下,使民众对法律的感知由抽象到具体、由具体到可视化,例如,对相关类案的智能关联,让民众在类案的裁判中具有可预期性。
就命名实体识别技术应用于司法大数据中的可行性而言,早在2000年时,即有人提出法律文本中人名的自动提取和链接的方法。随后,挖掘法律文本以创建诉讼历史数据库、使用自然语言处理和机器学习技术从裁判文书中识别相应的实体等方法相继被提出、运用。
在自然语言技术的不断优化的过程中,较多的命名实体识别方法被应用于司法大数据领域,例如,基于预训练表征模型(Bidirectional Encoder Representation from Transformers,BERT),将字和词匹配输入相应模型中,并对其解码,所得到的最优标签序列,对法律文书中的证据名、证实内容等实体边界进行有效确定。这为命名实体识别技术辅助司法实务,实现法律文本分析智能化提供了底层技术逻辑。
首先,法律领域中的文本通常包含了人名、地名、时间、日期等实体,其可以成为识别的对象。命名实体识别的核心是对文本“实体”进行自动标识,这为法律文本中的大量“实体”提供了识别的技术可能性。当前,大多数的命名实体识别解决方案在生物医学、新闻媒体等领域中运行。但法律领域的命名实体识别解决机制尚不成熟,因为命名实体识别还不能完全识别法律文本中的特定实体。
一方面,法律领域中的文本没有与“实体”类语义概念相统一的分类,相应地,法律领域的“实体”也没有统一的注释准则。另一方面,当前法律领域尚未建立与法律文本相关命名实体识别的数据集。这就需要依托命名实体识别技术建立法律领域的数据集,形成符合法律独特语言的模型。
其次,在司法实务中,利用命名实体识别进行法律文本智能分析已然践行。在美国,有论者提出,应首先建立特定州、特定县的特定法官的数据库条目,再讨论法律文件(例如美国判例法、陈述书、诉状和其他审判文件)中的命名实体承认和解决。其中,可以结合命名实体识别技术形成在法律实体中查找,上下文规则和统计模型的三种方法。然后,再描述一个在法律文本中查找命名实体的实际运行系统,并评估其准确性。
在德国,则有学者描述了一个为德国联邦法院判决中的命名实体识别开发的数据集。它由大约67000个句子和200多万个标记组成。该资源包含54000个人工注释的实体,映射到19个细粒度的语义类别:人、法官、律师、国家、城市、街道、景观、组织、公司、机构、法院、品牌、法律、法令、欧洲法律规范、法规、合同、法院判决和法律文献。这在法律领域提供了免费可用的数据集,为法律文本分析研究提供了文本类型或语义类别。
当然,命名实体识别的逐渐成熟运用,不断提升了法律文本分析的精准度。比如,针对案例推荐中存在的推荐准确性差、传统知识图谱向量化表示精度不高等问题,有论者构建了基于知识图谱的案件推荐模型。该模型利用文本分类和信息抽取技术构建面向刑事案例的知识图谱,针对当事人的陈词供述,利用知识表示学习求解相似的案件,进一步实现法条推荐。可见,当前命名实体识别的发展更多地是在正向层面推动着司法实务的发展。
伴随着命名实体识别技术的优化,其在司法实践中的应用将改变当前的司法工作,“NER在其他学科上的应用也是未来一个重要的研究方向。将已有的NER方法有效地应用在各种领域的文本上,帮助各种学科获取其所关注的命名实体,这本就是NER研究的意义和价值所在。”
对此,将自然语言处理技术中的命名实体识别应用于司法实践中,应符合当下的司法改革之方向,最大程度破解“重建设,轻应用”的法律人工智能之发展障碍。
就法律领域而言,当下法律人工智能最具被挖掘潜力之一的乃法律规范文本,目前中国法律体系已然建立并逐渐健全,面对如此海量的法律规范文本,为了避免对法律教义解读的偏离、适法之不完全与困境等,通过命名实体识别技术提取法律规范文本中的“实体”,尤为必要。
其二乃裁判文书文本,海量的裁判文书是当前司法审判实务经验的汇集,在助力类案类判的过程中,对裁判文书的充分挖掘也能够推动法律的普及。因此,对两类法律文本的命名实体识别之应用,将促进法律人工智能的效能,提升法律普及之效度。
(三)命名实体识别于司法大数据应用之法理根基
以往的法学理论强调法律的客观性。解释者只需要服从法律的含义即可。但是,客观的法律内容往往是不确定的,确定的只是法律语言的形式表达。以此为指引,命名实体识别只能被动地在表层的文字表达中提取固定信息,不同的主体在解读文本的时候往往带有不同的前思维,因此,他们所预设和期待的文本信息关联图谱很可能大相径庭。
例如,在法律规范文本的检索中,甲和乙同样是检索“高空抛物”,但甲可能只是想知道高空抛物罪的具体条文规定,而乙则希望了解高空抛物涉及的所有罪名。如果文本识别的结果是只呈现出高空抛物罪的条文规定,显然不能满足乙的需求。相反,如果文本识别的结果是包含所有可能与高空抛物相关的罪名以及司法解释,对于甲来讲又是太过庞杂。
另外,由于不同主体的认知范围不同,形式化的文本识别结果对于不同主体来讲也有不同程度的信息隔阂。如果要让文本识别达到可及化和均等化的目标,就必须克服不同主体间的预设与需求差异。
因此,在构建命名实体识别的底层逻辑时,应当重视法律解释的主体间性。所谓主体间性,是指“主体间或主体际,指的是两个或两个以上主体的关系。它超出了主体与客体关系的模式,进入了主体与主体关系的模式。就单纯的主体与客体的关系而言,主体所面对的是客体,他人也被视为客体;而在多主体的关系中,他们所面对的既有主体之间的关系,也有主体与客体间的关系。”
从主体间性出发,可以推导出主体与文本之间的互动性。不同的主体以其自身的前思维碰撞文本中的信息,从而实现主体与文本距离的拉近。“通过读者意识这样一个外部因素的介入,使解释从纯粹的细节和整体之间的循环中解放了出来,从条文细节的粗糙意义到深入意义,这并非简单的循环与重复,而是经读者意识修正与细化之后的螺旋式上升。
读者总会根据其从生活世界体验的案件类型与价值精神来把握条文的整体价值,并以此来支配对条文细节深人的理解。”以此为参照,法律文本识别就要充分考虑到不同主体的可能需求。
尤其在司法大数据中,精准地捕捉关键信息,是命名实体识别的重要目的。只有把主体和文本可能产生的主观互动作为识别逻辑的前提,才能让纷繁复杂的信息接近主体预设和期待。
例如,从主体的预设和期待出发,对高空抛物的相关文本做精准的识别,从而确定关涉特定罪名的文本、还是关涉全部法律规范的文本、抑或关涉非刑事犯罪的文本(如民事法律规范文本和行政法律规范文本)。
除了考虑主体的文本识别需求以外,主体间性还能为法律规范文本和案件事实文本之间架起互通的桥梁。以往的法律适用理论主张法律适用就是从法律规范适用到案件事实的过程。那么,法律规范文本和案件事实文本之间就是从属关系。但是,法律的真义必须经过事实的碰撞才能逐渐的揭示。
“正如较具体的制定法(法律规范),只有在与应加规范的可能的生活事实,有所关联时,才可能由抽象的法律理念(一般的法律原则)产生,具体的法律,亦只有与现实的生活关系相关联之下,才可能由制定法(法律规范,法律规则)产生。”
根据主体间性理论,立法和司法不是截然割裂的不同区域。立法要向司法无限接近,而司法也要向立法无限接近。只有这样,才能让法律规范成为真正的“活法”,而司法活动也才能成为法律发展的过程。法律规范文本和案件事实文本不是单向的适用和被适用的关系,而是相互不断拉近的关系。以此为指引,根据案件事实本文识别法律规范文本,或者根据法律规范文本识别案件事实文本,便成为可期待的事情。
二、法律规范文本中命名实体识别之实现路径
当前法律检索出现了如下问题:
其一,法律规范文本有其特殊的属性,主要表现为术语的专业性、法律条款的多样性、法律内容的关联性等,对相应法律条文进行检索时,获取相关信息并不能完整呈现或者获取的信息需要再整合与关联;
其二,法律规范文本名称存在重合性,检索某部法律时,会显示多部出现检索关键词的法律规范文本,检索者还需要人工再检索、再定位,从中寻找所需要的具体法律条款,大大地增加了检索者负担。例如,与未成年人相关的法律、法规、司法解释、部门规章、地方性法规以及地方政府规章已有上千部,如何在适用过程中避免遗漏、甚至错误,需要重视;
其三,若按照具体法律条款的内容进行检索,同样会出现不相关的法律条文等问题。
上述问题困扰着法治的均等化与可及性,一方面,民众难以及时公平地获取大致均等的法律检索服务,对法律的认知停留于法律颁布的时间、名称等,难以有效清晰地了解具体内容,特别是整体法秩序下的相近内容。
另一方面,法治的可及性问题还要满足司法效率的要求,若法律检索效率低下、检索不全面,势必影响法律适用的准度。
而利用命名实体识别技术解决上述法律检索问题,具有如下优势:
一是该技术通过识别相应的法律专业术语(实体),对识别模型深度学习训练之后,可以不断实现精准化的目标;
二是人工智能时代中的机器学习逐渐成熟,对资料的收集、储存、整理、分析等,不仅成本低廉,且能比人类更加卓越。例如,基于ES的检索计算,可通过多重检索规则(关键词检索、正则检索等)实现检索目标;
三则将命名实体识别应用于法律规范文本之中,旨在以技术促进法律人工智能的均等化与可及性。在法律人工智能发展过程中,宣传、普及海量的法律规范需要借助技术手段分门别类的呈现不同级别的规范,避免法律文本在适用时的冲突。具体而言,可通过“法律规范文本数据集—实体标注与识别—深度学习训练模型”之步骤具体化。
(一)法律规范文本数据集的构建
法律规范文本数据集可以表现为法律、行政法规、地方性法规、部门规章、司法解释之间构成的动态数据库,同时也可以表现为由司法大数据文书所汇集而成的数据库。
所谓数据集是命名实体识别应用的基础数据库,其是将“实体”以某种逻辑形式记录的集合,在内部呈现变量与数据库表的对应关系,具有相应的逻辑架构。在这逻辑架构中,法律规范之间以“对应”的方式形成互嵌组合。组建的法律文本数据集包括构建阶段、逻辑、方式、文本挖掘、排序以及信息检索与数据集之间的匹配等内容。
第一,在法律规范文本数据集的构建阶段,应将法律语言转换为自然语言处理。法律以语言为核心,法律与语言之间存在着紧密的联系,并通过多层次语言进行传播。在法律领域将法律语言转换为计算机自然语言处理,更多依凭的是法律专家对法律的分类,而非人工智能技术专家的建模。例如,中国政法大学有学者基于中国裁判文书网已公开的文书,开发了10000篇裁判文书组成的民事裁判数据集,并利用Transformer模型优化数据集,获得了高效的民事裁判结果分析模型。
这一路径的可取性在于,一则,法律语言的非结构性、法律专业术语(实体)的价值判断性等,由机器自主学习难以完成信息抽取等任务。需要法律专家创建法律规范文本数据集,以符合法律文本的规范逻辑、法律规范等级等需求,再嵌入深度学习技术中,实现可操作性的要求。二则,法律规范中的命名实体识别、关系链接、信息抽取、文本挖掘等应先由法律专家根据法律语言的特殊性手动注释实体,以满足精准识别的要求。
为此,法律规范文本数据集的建立分为几个阶段:第一阶段是收集、整理我国已发布、正式生效的法律规范性文件,准备好构建数据集的法律数据。第二阶段是数据转换阶段,通过深度学习方法将法律规范文本转换为自然语言。第三阶段是改变数据集阶段,即通过命名实体识别使数据集的挖掘更加有效。在法律规范文本数据集构建阶段,应关注法律规范文本数据集构建中“变量”之间的关系及其逻辑,形成以法律规范为主的数据体系,为人工智能深度学习提供“基础”。
此外,在法律规范文本数据集构建过程中,需要归纳数据挖掘、预测的规则,为法律实体标注奠定基础。法律判决预测(LJP)的任务旨在赋予机器在阅读事实描述后预测法律案件判决结果的能力,这需要以法律规范文本为依据。例如,所提取的信息可以将法律推理和论证的人工智能模型与法律文本直接联系起来,预测和解释案件结果。其中,法律规范文本数据集的构建,将直接影响法律规范检索的高效化、裁判结果预测的准确性。
第二,在法律规范文本数据集阶段性构建指引下,还需要对法律文本按照一定的规则排序。这一排序规则既要符合法律规范的效力等级,也要反映使用给定学习策略的深度学习系统之技术逻辑。
一方面,应按照法律的效力层级对法律规范文本数据集排序。当前我国已经形成了以宪法为核心的法律规范体系,效力层级应当是“根本法、基本法、普通法、行政法规、地方性法规和行政规章”。因此,数据集的分类,应当按照上述效力层级分类表达,其中最为重要的是上述规范性文件之间应做好对应关联性匹配,避免检索查询时遗漏。
另一方面,机器深度学习所获得的实体,原则上不能被完全验证,这主要是因为法律术语语义的差异性所致。当然,数据集之中能够被检验的“数据量”暂时是有限的。因此,为了提高检验的精度,机器学习时应设定具体的学习目标、确定检索优先推出“实体”的标准、确定检索结果的解释方法与推理规则。
根据上述排序逻辑,法律智能检索系统可按照如下方式进行,以法条为核心按照分阶段、分序列的方式系统性、精细化的构建。首先将法律规范分为宪法性法律、刑事法、民商法等,并在各类别下再细分具体领域的法律规范,其次将法律语言转换成自然语言处理,最后在分类好的法律规范文本基础上,制定数据挖掘的预测方法,并准备法律文本实体标注。
第三,构建法律规范文本数据集的过程中,还需解决法律文本挖掘问题。法律文本挖掘由信息检索研究发展而来,是通过对自由文本的自动分析来发现知识的研究领域。由于法律领域的文本信息往往以相对非结构化的文本形式存储,比如,法规、裁判文书等通常以自由文本文件的形式存储。这种非结构化的信息增加了检索的难度。
高效信息检索旨在检索给定信息查询相关的内容。典型的法律规范检索系统应是从数据集中选择相应文本,以响应用户的查询,并根据这些文本与查询信息的相关性对其进行排序,这就需要将“文本表示”与“查询表示”进行匹配来实现。
法律中文本挖掘的大多数示例涉及信息提取、文本分类、文本聚类或者文本摘要。例如,其中信息提取涉及文本自动识别,对特定领域进行抽取的技术信息来自文本,文本片段被映射到具有明确语义意义的字段或模板群,以实现在法律文本检索中获取所需要查询的信息。
通过这种模式,诸如澳大利亚法律信息研究所(AustLII)、英国和爱尔兰法律信息研究所(BAILII)、加拿大法律信息研究所(CanLII)、香港法律信息研究所(HKLII)等独立和非营利性合作机构,即可在接收法律文本后,自动处理并上传到相关数据库,以便用户查询。
(二)法律规范文本数据集的实体标注
首先,应明确法律领域实体标注的原则。对法律规范文本数据集中的“实体”应注意如下原则:
一是,法律规范文本中所使用的类别必须是反映那些典型的决策实体,如法律规范的标题名,以方便民众检索时直接查询到文本标题;二是,对法律规范文本中的分类必须关注决策差异化高度相关的实体,以便查询时呈现直接相关的内容。
这是因为,法律语言的语义结构影响着命名实体识别的精准性。例如,标准法律文本中由长标题、短标题和缩写组成,这就需要法律规范文件中使用的实体符合法律语言的逻辑构造,既要考虑法律法规被裁判文书引用的事实,又要考虑典型命名实体识别的类别(人名、地名、组织机构名)在法律、行政法规等规范性文件中出现的频率较低之事实。通过典型性、高度相关性突破法律实体中没有统一定义这一难题。
其次,应明确法律领域实体标注的方式。我国法律规范文本具有如下特点,在形式上,法律规范具有标题、编、章、节、条、款、项的结构;在法律文本内容上,由于法律条文一般由“前提条件”“行为模式”和“法律后果”三部分构成。
一方面,可以通过人工标注,将法律规范文本中的分词进行实体标注,以避免法律实体中没有统一定义造成的疏忽。
另一方面,可以根据法律规范的结构、特定的格式进行自然标注。为区分相关法律实体,应对法律规范所规定的要件进行解构,并予以标注。例如,刑法规范的构成要件中的犯罪主体、主观要素等;在文本内容的关联上,可以采用序列到序列的方式强化实体之间的匹配,在法律规范检索时呈现文本全貌。
序列到序列模型结合了强化学习在决策上的优势和序列到序列模型在长期记忆方面的优势,能较好地实现关键词抽取任务。在自然标注的过程中,应考虑实体的多标签分类,将不同法律规范中的“实体”整合成法学多学科词库。
由此,在数据集构建好并在法律文本中的实体标注之后,从数据集中选择反映查询的实体之过程大抵如下:
识别、分析法律文本中的单个词—删除与查询无关的法律实体—寻找到法律文本检索系统中语义差异较小的词组—利用统计学方法将词组(短语)表述为索引术语—将数据集中的实体做“重要性指标”或者“术语权重”比对—匹配检索之信息与实体。
以搜索“抢劫罪”相关的法律规范为例,当在法律规范智能检索系统中输入“抢劫”时,可以发现,包含“抢劫”的法律规范文本有法律、行政法规、部门规章、司法解释等。
在比对检索的法律实体时,可以按照法律、行政法规的效力层级、或者直接点击民法典、刑法典等具体的法律规范、或者按照中央发布机关、省级发布机关等方式进行,以便求得信息检索与实体之间的正确匹配。
(三)法律规范文本数据集中深度学习模型训练
在法律规范文本数据集以及实体标注之后,对于法律规范的检索并不能达到智能化的程度,为此,尚需深度学习的应用。深度学习(Deep Learning)作为机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。
毫无疑问,随着人工智能的深入发展,深度学习将是人工智能可解释性研究的重要目标,但由于深度学习的不可预测性,其可解释性研究仍会遭遇瓶颈。在法律领域,如何利用深度学习推动、提高法律“实体”识别的精度,是法律规范文本数据集所需要解决的难题。
首先,应确立法律文本数据集深度学习的方式。就深度学习的方法而言,主要有监督、半监督和无监督方式。监督学习旨在使分类准确性达到最佳,是对输入对象预先分配经标注过的实体的学习方式。而无监督学习是机器自主学习、自动校正的方式,但存在算法“黑箱”。
一方面,算法“黑箱”受人工方面的限制,一定程度上限制着命名实体识别的精准度。另一方面,无监督的深度学习方式需要将价值数据化,也就是说,在法律规范检索时呈现的结果可能出现冲突,此时需要价值判断。
深度学习为价值数据化提供了技术支持,将价值通过数据的形式实现经验性的穷尽,并输入计算机程序系统中,那么计算机就深度学习了价值的概念层次,并将其植入司法决策当中。将法律规范文本数据集的数据价值化,降低算法“黑箱”所带来的实体识别模糊化。
然而,即便通过训练深度学习模型优化算法,由于法律文本的实体识别需要最大限度地达到精准性程度,实现检索中的高效性,无监督学习方式暂不可取。法律领域中缺乏统一的法律用词、标准的领域本体和专业的叙词表等资源,使得无监督的识别方法难以有效应用。
对此,为了避免传统机器学习所造成的差误,机器学习方法经常与各种其它组合以获得更准确的实体识别,应采取监督和半监督相结合的方式进行,以提高实体识别的精度。
其次,为处理法律规范文本中实体识别,需构建监督与半监督学习方式在实体识别的路径。具体如下:一是,基于法律语言的非结构性特征,自上而下进行定义,这主要是由法律专家根据法律规范文本的属性,进行概念的解构;二是,基于法律规范中的结构性语言,如法律规范的章节标题、固定用语等,自下而上进行学习,该种学习方式是出于法律语言的特征,使用(半)自动自然语言处理技术对该概念结构的逐步完善,最大限度地提高所获知识的完整性和领域特性。
这种结构是独立于法律语言语义的,这需要与数据集中的实体保持一致,以便可以在机器深度学习时捕获相似或者互补的知识,同时,需要对法律规范文本的显性结构进行分析,以便在法律规范之间有针对性的标注,供机器学习。
最后,应训练和评估具有多重语义的法律命名实体。对法律规范数据集中的实体进行大型语料库的预训练,然后在监督下进行训练,此时可以对语料库中未识别的实体进行再标注、再学习,然后对最终任务进行培训。
综上,命名实体识别的应用,一定程度上丰富了法律规范检索的智能化程度。能够帮助广大民众在知法懂法守法用法的过程中,辅助检索、分析法律规范,以作出判断。通过法律规范文本数据集、法律“实体”标注、深度学习模型训练等,提升智能法规检索等的体系性、便捷性、精准性,实现关键词关联检索,形成法律规范间的知识图谱。
降低普通民众检索法律、使用法律的“门槛”。让并未受过法学教育的普通民众也能在法律人工智能的辅助下,得到较为理想的检索结果,从这一点来看,命名实体识别推动下的智能法规检索有利于法治的均等化与可及性。
三、司法文书文本中命名实体识别的实现路径
本文通过命名实体识别结合裁判文书实现智能要素的提取、标注、分析和比对。一方面,裁判文书包含了大量的人名、地名、组织机构名、时间日期以及专有名词等“实体”,例如,在“当事人信息”一栏中就有人名、地名等大量实体。
对文书进行挖掘时,利用命名实体识别所要解决的问题大致为:一是提取人名地名等特定实体;二是挖掘出裁判文书的其他关键实体信息,例如刑事裁判文书中的证据采纳、证据分析、证据比对、证据引证等。另一方面,通过命名实体识别技术挖掘案件信息的最终目的是建立裁判文书智能分析系统,提供可视化、高效化的数据分析,并在此基础上形成对未决案件的证据归类、分析和比对,形成智能化的类案应用系统。
具体而言,具体的应用场景主要包括:智能辅助实现类案类判、智能实证分析应用、智能类案关联应用、智能证据分析应用等,鉴于篇幅所限,本文主要探讨智能实证分析应用和智能类案关联应用。
(一)命名实体识别在司法文书中的实现路径
在将命名实体识别应用于具体场景之前,应解决其中的共性问题,即命名实体识别在司法文书中的具体实现路径。
首先,通过对裁判文书进行拆分解构,可以发现其具有如下特征:
其一,人名、地名、组织机构名等命名实体较多,基于个人隐私的保护,裁判文书一般对人名会采取隐性处理,这加深了实体识别的难度和模糊性;地名、组织机构名同样也可能会被隐性处理,但相较于人名而言,频率较低。
其二,专有名词较多。例如,原告人、被告人、上诉人、辩护人等。
其三,与法律规范条文交叉融合,裁判文书中会有大量引用法律条文的现象出现,进而干扰了对案件的智能分析的准确性。
其四,裁判文书中的实体存在融合或嵌入现象,如“江西省南昌市青云谱区人民法院”,既含有地名(江西省南昌市青云谱区),也含有组织机构名(江西省南昌市青云谱区人民法院)。
另外,裁判文书中的法律规范、相关司法解释的名称通常很长,致使识别的时间或者法律规范的名称通常不确定,也就导致命名实体识别的规则难以确定。
在归纳裁判文书的命名实体的特征之后,可通过“知识树构建(实体、属性标签等)—智能抽取要素(命名实体识别、事件抽取等)—智能生成图表”三个步骤实现裁判文书的命名实体识别与要素抽取。
其次,应提高识别裁判文书中相应实体的精准度。通过融合多个模型进行裁判文书实体识别。
一方面,命名实体识别模型的选取至关重要,关乎裁判文书实体识别的精准度。裁判文书涉及智能辅助实现类案类判、智能实证分析应用、智能类案关联应用、智能证据分析应用等场景,裁判文书的“实体”呈现多样性等特征,这为机器深度学习之后的自动标记带来了难题,需要融合多种实体识别模型,自动扩充裁判文书命名实体识别的标记数据。
另一方面,在技术层面,融合多种模型的命名实体识别应用取得了一定的成果。例如,通过多特征的条件随机场(Conditional Random Field,CRF)模型尝试在裁判文书中的命名实体识别之应用。即在统计法律实体的内外部特征之后,将其中的罪名、刑罚等法律术语应用CRF模型进行识别,获得的识别效果较好。
当然,也有针对法律文本中的非连续实体特征,提出一种基于超图的非连续法律实体识别方法,在对非连续法律实体的识别上具有比CRF模型较好的效果。例如,小包公实证分析系统很大程度上参照了上述模型,能够精准地识别出罪名、刑罚等实体,对诸如“自首”“诈骗罪”“具体规范名称”以及规范条文的具体内容等法律“实体”进行识别。在机器深度学习基础上的自动识别法律术语等,最终目的是为了解决实体识别的精度问题。
再次,需在标注数据集时做好裁判文书的细粒度命名实体分类,以应对裁判文书的多变性等特征。所谓细粒度命名实体识别是与粗粒度实体类别(人名、位置、组织机构、时间日期等)相对应的,且被包含于粗粒度实体类别中的实体,例如粗粒度实体中的“人”可以包含“原告、被告、辩护人、证人、鉴定人”等细粒度实体。
正如前文指出的,由德国法院判决组成的数据集中,有学者使用了19种语义类别进行细粒度实体标注,为裁判文书的细粒度实体识别做了指引。某些法律“实体”的识别存在差异,这主要是因为,法律文本数据集中语料库的覆盖范围、名称形式的异质性或注释的多变性以及上下文的语义差异等,使法律实体类别分布不平衡、裁判文书的细节较多。需要对法律“实体”进行细粒度分类,在我国的裁判文书中,以文书中“当事人信息”为例,其细粒度可以分为:当事人的性别、年龄、职业、学历、民族、籍贯、住址等。
最后,标注、分类法律领域的“实体”后,还需要通过“数据增强”(Data Augmentation)将标注后的实体随机重新组合,再将新组合与数据集中的实体进行比对,并予以替换,提升裁判文书数据集的主动学习能力。
一方面,数据增强是深度学习的方法之一,指的是让有限的数据产生更多的数据,增加训练法律文本的数量以及多样性,以应对裁判文书的多变性。另一方面,裁判文书中的数据集较大,如何才能更好地利用深度学习提升命名实体识别的精准度至关重要。法律领域的命名实体种类繁多,例如,“组织名”通常使用非常长的名称,每个名称在数据集中仅被提及一次或几次。
另外,与人名、地名或组织机构名称等实体相比,法律数据集中的名称、时间、日期等实体的分布范围更广,加上裁判文书的语言并不是很规范,可能存在重复使用实体或者没有统一引用相关实体(如法规名称、组织机构名等)的情形。这就需要细粒度分类覆盖类型迥异的法律“实体”,使用数据增强功能来丰富命名实体的训练数据集,优化和拓展不平衡的实体。
(二)智能实证分析系统应用的实现路径
通过分析裁判文书等司法文书的特点,以及相关命名实体识别的应用示例,可以发现,以技术手段辅助分析裁判文书文本,具有高效化、精细化、客观化等优势。但在法律实证研究仍存在不少问题,例如,在成长中的法律实证研究,一定程度上推动破解中国社会现实问题之同时,也存在理论储备不足、科际整合有限、获取资料困难等难题。
应用命名实体识别技术等辅助手段获取到的客观有效的数据不仅能破解“当下法律实证研究所依赖的数据是普遍不足的”这一重大现实难题,提高数据整体质量与可信度、可采度;还能应对“法律实证研究的具体方法当下尚停留于有限的几种回归模型,数据收集依赖于研究者的社会资源,样本量止步于百千级”等不足。
首先,确定裁判文书中“实体”的边界。裁判文书中的通用实体,例如辩护人、原告人等遵循实体识别规则极大地提升了识别的效率。但与英文相比,中文命名实体识别的最大区别和难点在于,中文文本没有像英文文本那样具有明确的单词边界。
但正确识别裁判文书中的实体是支撑智慧法院建设的重要基础,也是构建法律知识图谱的前提。例如,可通过证据抽取评估案件审判质量,且基于实体的边界识别与组合的证据抽取模型,可有效提升对识别边界的识别率。因此,命名实体识别的第一步骤是确定字边界,也就是分词。
其次,确定裁判文书中“实体”的匹配,即将复杂的法律案例匹配到相关的法律条文之中。我国法律规范体系已经形成,大规模的法律资源在互联网和社交媒体的推动下,已为法律工作者带来了极大的便利。但面对大量的法律文本,如何针对复杂的法律案例找到相关的法律条文仍然是一个很大的挑战。
对此,有人工智能学者提出,自动识别中文法律文本中的法律术语是法律大数据结构化处理的基础。在条件随机场模型的构建过程中,结合法律领域实体的内外部特征,定义分词序列、词性、词长、是否左边界词、是否右边界词5种特征进行构建。不断精确地表征深层的法律语义分布,将裁判文书中所关联的法条精准地予以识别。
最后,对法律案件进行自动分类匹配。在法律领域,命名实体识别技术促进了信息提取、智能咨询服务系统等应用的发展。这提升了案件处理的效率,避免了人工操作的不足。
例如,可以将一个半监督的法律实体嵌入相应模型中,从有大量裁判文书中的法律语料库中学习法律词语的含义,然后利用这些知识对一小部分带注释的法律案例进行事实检测分类器的训练。这种采用半监督的方法开发了一个语义搜索系统,能够在大量的法律语料库中发现事实陈述句与给定查询相似的法律案例,从而更好地实现案件自动分类匹配的目标。
就这种自动分类匹配的具体流程而言,可按照如下方式进行,第一,确定研究范围,从而明确实体识别的类型、边界等,例如,确定故意杀人罪的研究课题即是为了确定实体识别的具体范围。第二,对相关的实体在文书中进行标注,并将相关法律事实与法律规范匹配、分类。第三,则是对同类案件进行自动分类匹配,例如,针对故意杀人罪案件中适用逮捕、监视居住的案件,通过标注之后可以自动分配匹配。
这一过程的实现,可通过三种智能抽取方式,即智能检索、关系抽取、智能可视化方式,对裁判文书进行分解,然后再根据法律规范的结构性语言、上下文特征等进行深度学习,以获得法律依据标注的完整性,最终可将类案智能标记并推送。
(三)智能类案关联系统的实现路径
2020年7月31日施行的《最高人民法院关于统一法律适用加强类案检索的指导意见(试行)》,明确规定了类案检索的案件范围。对此,需要“增强技术与司法的耦合度,优化人工智能对检索结果供给。”确定类案检索标准并智能推送是类案检索的主要要求和技术与法律深度融合的体现。“司法技术化符合现代法治与司法权威的要求”。
在此背景下,可通过机器深度学习技术中的高精度预测法以及文本分类法等方法支持命名实体识别在类案推送中的应用。
首先,应明确类案的相似性标准。“判断类似案件的主要标准是争议点相似和关键事实相似;辅助标准是案由和行为后果相似。”也有论者提出了类案智能推送的方法,即通过类比推理这一既适用于案例,又是人工智能的一种基础算法这一本质上融通的方法,以类比推理为基础构建案例智能推送。
另外,还有人工智能专家设计了相应的模型,即针对裁判文书类案推送任务,基于裁判文书在篇章结构和语言表述方面的特征,从裁判文书案情内容的抽取、案情内容中不同词性类别词项的权重分析、案情内容中未登录词的识别、案情内容中数量表述的相似度计算等角度展开模型构建。
这说明,确定案件相似性的标准应既有法学标准,又要有贴合裁判文书特征的人工智能标准。以回应人民群众期待量刑公正的日益精细化、精准化、透明化的要求,并借助技术手段妥当解决当前裁判说理性不足、类案不同判的量刑实践反差等问题,确保类案类判。
其次,应明确类案推送的多模型融合方法。确定案例相似度的方法包括最近邻法、归纳推理法和基于知识的索引法。例如,归纳推理法提取案例特征,并形成类似于歧视网络的层次结构,对于特征相互依赖的案例效果更好。基于知识的索引法根据已知知识确定特征的重要性,对于具有一定动态性和方向性的案例比较适用。
但不管是哪种方法,确定类案应以案件的争议焦点和关键事实为主要标准,辅之以归纳推理、类比推理、遗传算法等人工智能技术方法,并检验其相似性,最终目的是输出“类案”。
例如,利用的最近邻法、归纳推理法和基于知识的索引法等多模型的融合所构建的类案检索系统,其中以“裁判结果:故意杀人罪”“刑事案由”为例进行类案检索,可以直接呈现案件相似的要点,比如,因恋爱、婚姻矛盾激发的故意杀人;犯罪手段残忍;量刑有坦白、积极赔偿等情节,从而被确定为类案。同时,将类案检索呈现的结果按照权威类案、普通类案以及案件来源、文书性质、审理程序等方式表现出来。
最后,应对类案的相似性进行检验。在检验相似性时,命名实体识别技术所发挥的作用尤为重要,一则,可以确定相似实体并予以识别;二则,案件在被识别过程中,法律语义的关联性、相似性等因素应当通过数据增强等深度学习方法予以辨识。
结 语
法治的均等化与可及性旨在彰显社会公平正义,命名实体识别技术这一新兴工具对于法治的建设作用即在于,作为提升识别的精准性、呈现可视化的工具。利用命名实体识别等技术方法将技术与法律深度融合,并应用于司法大数据资源则成为可能。
这也是法律人工智能可及化和均等化实现的技术基础之一,具体可以通过在智能法律法规关联、智能类案关联、智能案件分析、智能类案类判等应用中得以实现。
当然,对于命名实体识别应用于法律领域还有用户的隐私风险评估、提高法律实体类别分置以及识别之精度等方面,研究还需深度展开。
新媒首发 | 王燃:大数据时代侦查模式的变革及其法律问题研究
李训虎:刑事证明标准“中体西用”立法模式审思——兼评大数据、人工智能参与证明标准构建
北京市丰台区律协成功举办电子证据与大数据证据审查与质证互动式培训
预告 | 南开证据法课程 | 周跃:大数据证据运用的技术规则构建
大数据报告 | 文化程度与缓刑适用之大数据报告 ——基于故意伤害罪的实证分析(下)
大数据报告 | 文化程度与缓刑适用——基于故意伤害罪的实证分析(上)
宋雷昌、刘笛:大数据企业常涉的“三宗罪”——企业家刑事风险防控研究(三)
宋雷昌、郑凯方:游走于犯罪圈内外:大数据企业收集公民静态、动态信息进行核验的合法性分析
瀛和下午茶 | 朱桐辉、刘欣、蔡璇:如何让大数据证据为我所用?
编辑 | 阳山磊,山西农业大学内审部办公室副主任,南开法律硕士